Loading...
机构名称:
¥ 1.0

马尔可夫决策过程(MDPS)我们假定无限 - 摩尼克折扣的MDP M =(s,a,p⋆,r⋆,γ,s Init)的标准符号为真实环境,其中s in Init是disteristion的初始状态W.L.L.O.G.所有奖励都被认为是在[0,r max]中界定的,而v max:= r max /(1 -γ)是累积奖励和价值函数上的上限。我们假设s很大,因此不适用表格方法。在大多数情况下,我们考虑有限和小动作空间,但有些主张也在大型动作空间中。给定策略π,其预期回报为jm⋆(π):= em⋆,π[p∞t= 0γt r t]。有时,尤其是在反例中,考虑H-步骤有限的Horizo​​n问题会更容易,其中预期的回报定义为(滥用符号)Jm⋆(π):=eπ[p h h = 1 r h]。

时空对称和能量摩托车...

时空对称和能量摩托车...PDF文件第1页

时空对称和能量摩托车...PDF文件第2页

时空对称和能量摩托车...PDF文件第3页

时空对称和能量摩托车...PDF文件第4页

时空对称和能量摩托车...PDF文件第5页

相关文件推荐